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Verfahren und Einrichtung zur komprimierten Ubertra- 
gung und/oder Speicherung von einer durch digitale Da- 
ten reprasentierten Nachricht 

Zusammenfassung 

Es wird ein Verfahren und Einrichtungen zu seinem Vollzug vorgeschlagen, die t-n nog- 
lichen, Redundanz in digital dargestellten Nachrichten zu eliminieren. 



Die Datenreduktion erfolgt dabei durch eine syntax-orientierte Codierung der Nachricht. 
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Verfahren und Einrichtung zur komprimierten Ubertra- 
gung und/oder Speicherung von einer durch digitale Da- 
ten reprasentierten Nachricht 

1 Einfiihrung in den Themenkreis 

5 Wichtige technische Anwendungen der Quellencodierung liegen auf dem Gebiet der Uber- 
tragung und Speicherung von Nachrichten. Aus dem Wunsch einer geringen Datenrate bei 
der Ubertragung von Nachrichten, bzw. eines geringen Platzbedarfs bei der Speicherung 
von Nachrichten, erwachst die Forderung nach einer moglichst kurzen, d.h. redundanzar- 
men und im Idealfall redundanzfreien Codierung der Nachricht. 

R 2 Stand der Technik 
2.1 Formen von Redundanz 

Redundanz tritt in Quellensymbolstromen in zweierlei grundlegenden Formen in Erschei- 
nung: Als unterschiedliche Auftrittshaufigkeit der Elemente des Quellensymbolvorrats, 
und in Form von statistischen Abhangigkeiten zwischen zeitlich auseinanderliegenden 
15 Quellensymbolen, die ihre Ursache meist in quellenspezifischen Bildungsgtsttztn fur die 
Konstruktion von Nachrichten als Folge von Quellensymbolen haben. 

3 Nachteile bekannter Verfahren 

Zur Kompaktierung redundanzbehafteter Qiiellen, deren abgegeben Quellensymbole nicht 
gleichverteilt, aber statistisch unabhangig sind, ist ein Verfahren nach Huffman |1] be- 
kannt. Speziell fur diesen Quellentyp geeignet, ist es mit dem Verfahren nur unter der 
giinstigsten Voraussetzung moglich, dafi die statistischen Eigenschaften der Quelle be- 
kannt sind oder zuverlassig geschatzt werden konnen, eine maximale Kompaktierung zu 
erreichen. 

Wahrend die Schatzung der fiir Huffman-Codierung notwendigen Auftrittswahrscheinlich- 
25 keiten einzelner Quellensymbole auch bei mafiig langen Nachrichten ausreichend genau 
moglich ist, erfordert die Schatzung statistischer Abhangigkeiten zwischen zeitlich ausein- 
anderliegenden Quellensymbolen in der Regel eine umfassende Beobachtung der Quelle, 
die technische Machbarkeit (Speicherplatz) und verfiigbaren Beobachtungszeitraum bei 
weitem iibersteigen. Deswegen treffen das bekannte oder ahnliche Verfahren stets Annah- 
30 men fiber das zugrundeliegende Bildungsgesetz oder wesentliche Charakteristika dessel- 
ben, und sind dann natiirlich auch nur fiir Quellen mit diesem Bildungsgesetz geeignet. 
Diese Einschrankung gilt auch fiir das seit Ende der 70er Jahre bekannte Verfahren nach 
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Lempel-Ziv (LZ) Datenkompaktierungsverfahren [2] Dieses Verfahren ist zur Kompaktie- 
rung beliebiger linearer Symbolfolgen geeignet, d.h. es ist anwendbar ohne Kenntnis der 

35 statistischen Eigenschaften der Nachrichtenquelle. Hauptanwendungsgebiete sind heute 
die Kompaktierung von Bilddaten (GIF-Dateiformat) und beliebiger Dateien (Archivie- 
rungsprogramme gnuzip, pkzip). Im Gegensatz zur Huffman-Codierung nutzt dieses Ver- 
fahren, zwischen zeitlich aufeinanderfolgenden Symbolen bestehende, statistische Abhan- 
gigkeiten durch Beriicksichtigung wiederholt auftretender Teilsymbolfolgen (Strings) aus. 

40 Damit ist LZ-Kompaktierung nur fur solche Quellen geeignet, deren Bildungsgesetz zum 
haufigen Auftreten bestimmter Strings fiihrt. Die Redundanz die durch das Befolgen gram- 
matikalischer Regeln bei der Konstruktion einer Nachricht in diese eingebracht wird,. ist 
den bekannten Kompaktierungsverfahren aufgrund der rekursiven Struktur gramniatikali- 
scher Regeln nicht zuganglich, da sie lediglich Symbolhaufigkeiten oder sich wiederholonde 

t5 Zeichenketten zur Kompaktierung heranziehen. 
* 4 Definition der Erfindungsaufgabe 

Aufgabe der Erfindung ist es, ein Verfahren und Einrichtungen zum Vollzug des Verfahren s 
zu schafTen, welche sich auf die Fahigkeiten erstrecken, aus einer als Zeichenstrom vorlie- 
genden Nachricht, die gemafi grammatikalischen Regeln gebildet wurde, durch Codieren 
50 jene Redundanz zu entfernen, die durch die Einschrankung aller moglichen Zeichenfolgen 
durch die Grammtik entsteht. 

Diese Aufgabe wird durch ein Verfahren mit dem in Anspruch 1 angegebenen Merkma- 
len und zwei Vorrichtungen, mit den in den Anspriichen 8 und 9 genannten Merkmalen 
bewaltigt. 

55 5 Vorteile der erfinderischen Losung 

Mit der erfindungsgemafien Losung, eine Datenreduktion in Abhangigkeit zur verwen- 
deten Programmiersprachensyntax vornehmen zu konnen, ist es nunmehr in besonders 
vorteilhafter Weise moglich, Redundanz in Nachrichten, die sich wahrend ihrer Konslruk- 
tion, wegen der Notwendigkeit bestimmte grammatikalische Regeln beach ten zu musseii, 
60 asymptotisch nahezu vollstandig zu entfernen. 

Die Erfindung hat dies durch analytische Berechnung der Kapazitat ihres syntax- orien- 
tiert codierten Datenstroms am Beispiel einer Sprache mit fur Programmiersprachen typi- 
schen Charakeristika (mathematische Ausdriicke, if-then-else-Konstrukt, etc.) bewiesen. 
Dabei zeigte sich, dafi ein nicht geringer Anteil der Redundanz, der im Aufgabenbereich 
65 herkommlicher Verfahren (Lempel-Ziv, Huffman) liegt, durch diese bisher nicht beseitigt 
wird. 

Das neue Verfahren der syntax-orientierten Codierung ist dagegen in der Lage, die Da- 
tenmenge z.B. bezogen auf ein Komprimierungsergbnis nach dem Lempel-Ziv- Verfahren, 
noch einmal urn nahezu die Halfte zu mindern. 
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70 Damit ist das erfindungsgemafie Verahren und zu ihrem Vollzug definierten Einrichtun- 
gen fur alle Anwendungen pradestiniert, welche die Ubertragung oder Speicherung von 
syntaktisch strukturierten Nachrichten beinhalten. Beispiele sind die Ubertragung von 
Java- Applets im Internet oder Intranet, die Ubertragung oder Speicherung von Postsr.ript- 
Dateien, die Ubertragung und Speicherung von MPEG-4-codierten Videodaten, oder die 

75 Verwendung hoherer Protokolle bei der Kommunikation. Gerade fur die Ubertragung von 
Programmen, wie z. B. Java-Applets, ist SoC in besonderem Mafie geeignet, da der Parser 
sowohl Bestandteil eines Compilers als auch eines SoC-Coders ist, und somit SoC orga- 
nisch in den Datenflufi von der Programmerstellung bis zum Programmablauf integriert 
werden kann. 



80 

» 



so 6 Wirkungsweise der Erfindung 
6,1 Syntaktisch strukturierte Quelle 



Die Erfindung geht von einer formalen Sprache aus, welche durch eine Menge von Zeichen- 
ketten dargestellt wird. Die Zusammenstellung der Nachricht erfolgt dabei nach einer der 
Sprache zugeordneten Grammatik. Eine Grammatik ist sowohl das mathematische Sy- 
85 stem zur Definition einer formalen Sprache, als auch ein Satz von Regeln zur Feststellung 
der syntaktischen Giiltigkeit eines konkreten Satzes. Im folgenden werden nur kontrxt- 
freie Grammatiken betrachtet, da hohere Programmiersprachen (C, (' : ! , Java, dr.) Tasi. 
ausschliefilich durch kontextfreie Grammatiken beschrieben werden. folgendermafcen deti- 
niert: 



90 Definition 1 Eine kontextfreie Grammatik ist ein 4-Tupel G = (TV, T\ P, S), wobei 
N die Menge der Nonterminalsymbole, 
T die Menge der Terminalsymbole, und 
P die Relation N x {N U T) m ist 

S ist ein besonderes Nonterminalsymbol, auch Startsymbol genannt. 

95 Definition 2 Ein Element (A, (3) € P hei&t Produktion und wird abkxirzend A 3 
geschrieben. 



Eine Produktion (oder Ableitung) ist somit eine Ersetzungsregel fur ein Nontennina.lsym- 
bol y4, wobei dieses Nonterminalsymbol durch einen String (Kette) il a.us ( Nonlemiina.!- 
und) Terminalsymbolen ersetzt wird. 
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100 



Existieren mehrere Produktionen (A,pi),(A,fc) y • • • , (A,/3 n ) € P, so schreiben wir hier- 
fiir: 

A -4 /?, 

I P2 
\ /?« 

Definition 3 Die Menge P Ao Q P aller moglichen Ableitungen fiir ein Nonterminalsym- 
bol Ao 

P Ao = {(A,p)eP:A = Ao} 

hei&t a.uch die Menge der Alternativen fiir A Q . Die Entscheidung fiir die Anwendung einer 
konkreten Produktion (A 0 , ft) € Pa 0 , = 1, 2, • • • , n) nennen wir Auswahl. 



Beispiel 1 Alle arithmetischen Ausdriicke in der Variablen a mit den Operationen + und 
* sowie beliebig verschachtelten Klammern (, ) sind tine formate Sprache, die durch. die 
Grammatik 

G = ({E,T,F},{a,+, *,(,)}> P,E) 

erzeugt wird. P besteht aus den folgenden Produktionen: 

E -+ E + T 
I T 

t -» r* f 

I F 
F -> (E) 
I a 



a*a + (a*a + a)*a ist beispielsweise ein giiltiger Satz. 

105 Bei der Erzeugung eines Satzes werden Strings aus Nonterminal- und ggf. Terminalsymbo- 
len durch Anwendung passender Produktionen auf die Nonterminalsymbole weiter abge- 
leitet, bis letztendlich der String nur noch aus Terminalsymbolen besteht. Im o.g. Beispiel 
besteht der giiltige Satz nur noch aus den Terminalsymbolen a, + ,*,(, ). 

6.2 Prinzip der Syntax-orientierten Codierung (SoC) 

110 Information fliefit in eine erzeugte Nachricht immer dann ein, weim bei ihrer Konstrwk- 
tion Entscheidungen getroffen werden. Entscheidungen sind dann zu treffeu, wenn vuu 
mehreren moglichen Quellensymbolen eines auszuwahlen ist, oder - bei einer syntaktisch 
. strukturierten Quelle - von mehreren anwendbaren Produktionen A -> fa, A -> fa,... 
genau eine Produktion Anwendung findet (Auswahl, vgl. Definition 3). 
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115 SoC codiert anstelle des Strings aus Terminalsymbolen die Auswahlen, die der Reihe nach 
bei der Konstruktion dieses Strings (der Nachricht) vorgenommen werden. 



Definition 4 S = {cr^o^, . . . i&n} hei&t SoC-Alphabet mit 

n = max{|F4|} 



A 



Alle Elemente einer jeden Menge von Alternativen P a werden mit SoC-Symbolen a, 6 £ 
(beliebig) durchnumeriert: 

120 Definition 5 za : P A — > E ist eine (beliebige) injektive Abbildung. 
Die konkrete Definition von za kann i.a. abhangig von Pa sein. 

Zur Veranschaulichung der Erfindung sind folgend Ausfuhrungsbeispiele naher beschrie- 
ben und in den Figuren 1 bis 6 dargestellt. Es zeigen 

• Figur 1 ein Blockschaltbild eines SoC-Ubertragungssystems 

125 • Figur 2 Alternativen der Grammatik G und mit SoC-Symbolen attributierte Aus- 
wahlen 

• Figur 3 einen Parse-Baum des Satzes a*a + (a*a + a)*a mit Entstehung der 
linearen SoC-Symbolfolge 121222121121222222 

• Figur 1 ein Flufidiagramm der Stack-Maschine (Kellerautomat) 

130 • Figur 5 ein besonderes Beispiel fur ein SoC-Ubertragungssystem mit empfangersei- 
tiger Quelltextausgabe 

• Figur 5 ein Beispiel fur ein SoC-Ubertragungssystem mit lauffahigem Java- Applet 
bzw. -Applikation als Ausgabe 

Die Funktion eines Ubertragungssystems mit SoC ist in Figur 1 veranschaulicht. Grund- 
135 satzlich sind Ubertragung und Speicherung im Hinblick auf die Wirkungsweise der Co- 
dierung gleichzusetzen. 

Die Quelle liefert einen syntaktisch strukturierten Symbolstrom (Quellprogramm). Ele- 
mentarer Bestandteil des SoC-Coders ist der Parser, dessen Aufgabe es ist, aus der zu- 
nachst linearen Folge von Quellensymbolen die grammatikalische Struktur des Satzes (des 
140 Quellenprogramms) wiederzugewinnen. Diese grammatikalische Struktur wird i.a. durch 
einen Parse-Baum dargestellt, der seinerseits als Eingabe fur den Coder dient. Der Coder 
erzeugt durch Codierung des Parse-Baumes eine lineare Folge von SoC-Symbolen, wo- 
bei das jeweils aktuelle SoC-Symbol in Abhangigkeit der aktuellen Auswahl ausgegeben 
und iibertragen wird. Der SoC-Decoder baut aus der linearen Folge von SoC-Symbolen 
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145 zunachst den Parse-Baum wieder auf, um dann durch dessen Traversieren die von der 
Quelle abgegebene Folge von Terminalsymbolen zu rekonstruieren. 



6.3 Codierung 



Die elementare Aufgabe des Parsers besteht darin, die bei der Konstruktion des Satzes von 
der Quelle getroffenen Auswahlen zu rekonstruieren. Ein Parse-Schritt bedeutet also die 
150 Feststellung der konkreten Produktion (A,/3) 6 Pa, die auch die Quelle zur Konstruktion 
der Nachricht an dieser S telle ausgewahlt hatte. Der Coder ordnet entsprechend Definition 
5 der solchermafien festgestellten Auswahl das zugehorige SoC-Symbol a* = z A ((A,/3)) 
zu und attributiert den entsprechenden Knoten im Parse-Baum mit a k . 

Durch Traversieren des Parse-Baumes wird schliefilich die lineare Folge von SoC-S viiiIjoIcmj 
erzeugt und ausgegeben. In den Beispielen dieses Beitrags wird hierfur siets (-in Deptli- 
first-Algorithmus verwendet. Der Prozefi der Codierung soil anhand dues beispielljafien 
Parse-Baumes und der zugrundeliegenden Grammatik aus Beispiel 1 naher erlautert war- 
den. 

Beispiel 2 Gegeben ist die kontextfreie Grammatik aus Beispiel 1. Alle Alternativen, d.h. 
160 alle Ableitungsmoglichkeiten fiir jedes Nonterminalsymbol sind in der Figur 2 graphisch 
dargestellt. Da die machtigste Menge von Atternativen genau zwei Elemente hat, geniigt 
das SoC-Alphabet E = {1>2}. Jede Auswahl aller Mengen von Alternativen wird mit 
einem SoC-Symbol attributiert. Beispielsweise wird die Auswahl der konkreten Produktion 
T — » T * F mit dem SoC-Symbol 1 attributiert. 

165 Ein gultiger Satz der Grammatik ist dann also z. B.: a*a + (a*a + a)*a Den Parse-Baum 
fiir diesen Satz und die Entstehung der SoC-Symbolfolge durch Depth- first- Traversieren 
zeigt Figur 3. 




6.4 SoC mit arithmetischer Codierung 

Das vorstehend erlauterte Verfahren ist nur dann effizient, wenn 
170 1. \P A \ = const V A, und 

2. P((A,/3i)\A) = const VA,#,- 

wobei P{{A, fii)\ct) die bedingte Wahrscheinlichkeit der /?,• erzeugenden Auswahl der Men- 
ge der Alternativen Pa bezeichnet. 

Diesem Mangel kann durch arithmetische Codierung [5] des SoC-Alphabets E gema.fi An- 
175 spruch 6 und 7 abgeholfen werden. Die fiir die arithmetische Codierung verwnedeten 
Wahrschienlichkeitsverteilungen der SoC-Symbole sollten in einer Adaptionseinrichtung 
nach Anspruch 10 adaptiert werden, wobei die Adaption getrennt fiir jede Menge von 
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Alternativen durchgefiihrt werden mufi. Anstelle der linearen Sequenz von SoC-Symbolen 
wird der vom arithmetischen Coder erzeugte Bitstrom iibertragen. 

180 6.5 Decodierung 

Die Decodierung ist der inverse Prozefi zur Codierung. Der Decoder formatiert die SoC- 
Codes zuruck zum urspriinglichen Satz (Strings von Terminalsymbolen). Er arbeitet nach 
dem in den Anspriichen 1, 3 bzw. 4, 5 beschriebenen Verfahren und wird durch eine 
Stack-Maschine [4] gemafi den Anspruchen 8 bzw. 9 realisiert. 

185 Ein Flufcdiagramm fur ein Verfahren nach Anspruch 22 ist in Figur A angegeben. 

»Zur Erlauterung der Stack-Maschine werden folgende Bezeichungen eingefuhrt: 
p k String von Terminal- und Nonterminalsymbolen 
cr SoC-Symbol 

V Terminal- oder Nonterminalsymbol 
190 S Startsymbol (Nonterminalsymbol) 

Die Decodierung lauft damit in folgenden Schritten ab (die Nummern korrespondieren 
mit den Bezugszeichen in Figur 4): 

1. Die Entwicklung eines giiltigen Satzes der Grammatik (eines Programms) beginnt 
mit dem Startsymbol S. Das Startsymbol S wird auf den Stack gelegt. 

195 2. Das oberste Symbol V wird vom Stack gelesen. 

3. Priifen, ob V ein Nonterminalsymbol ist. 

4. Vom linearen Eingangs-SoC-Symbolstrom wird das nachste SoC-Symbol a gdesen. 

5. Falls V ein Nonterminalsymbol ist, wird die Ableitung mit V weiterentwickelt. 
Durch a wird eine Auswahl (V,/?*) = z' 1 ^) der Menge der Alternativen von 
y (3\\P2\ — *\fi n fiir V bestimmt. Entsprechend der konkreten Auswahl wird V 
durch den String (3k ersetzt. 

6. Der String 0 k von Symbolen (Terminal- und/oder Nonterminalsymbolen) wird auf 
den Stack gelegt. 

7. Falls V ein Terminalsymbol ist, wird es ausgegeben. 
205 8. Priifen, ob der Stack leer ist. 

9. Die Stack-Maschine terminiert, wenn der Stack leer ist. 
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Die sukzessive aiisgegebenen Strings von Terminalsymbolen ergeben miieinander verketlf l 
schliefilich den urspriinglich codierten Satz der Quelle. 

7 Ausfuhrungsbeispiel 

10 Die beiden in Figur 5 und 6 dargestellten Ausfuhrungsbeispiele unterscheiden sich ledig- 
lich durch die Datenausgabe am Empfanger (Ausgabe von Quelltext entsprechend dem 
Verfahren nach Anspruch 3, bzw. direkte Ausgabe eines lauffahigen Java- Applets bzw. 
lauffahigen Java-Applikation entsprechend dem Verfahren nach Anspruch 4). 



einer 



# 



Java- Quelle 

Die Java-Quelle entspricht einem auf der Java-Grammatik beruhenden ASCII-Text, 
welcher aus Java-Programmtext sowie Kommentaren, Leerzeichen, usw. besteht. 



2. SoC-Encoder 

Der Soc-Encoder setzt sich zusammen aus einem Compiler- Frontend ((3), (4) und 
(6)), einer Parse-Baum-Verarbeitung (5), einer Adaptiervorrichtung (8) und Mmlu- 
220 len zur Kompression und Verkettung der erzeugten Daten. 

3. Scanner 

Der Sanner liest den Quelltext, entfernt die darin fur das Programm unwichtigen 
Textstellen, wie Dokumentationen, Kommentare, Leerzeichen, usw. und ubergibt 
dem Parser (4) (Terminal-) Symbole. 

225 4. Parser 

Der Parser interpretiert die (Terminal-) Symbole des Scanners (3), priift ob die Sym- 
bolfolgen mit den grammatikalischen Regeln fur Java iibereinstimmen und erstellt 
den fur dieses Programm spezifischen Parse-Baum. Zusatzlich wird die Symbolta- 
belle (6) aufgebaut. 

230 5. Parse-Baum-Verarbeitung 

Bei der Initialisierung der Parse-Baum-Verarbeitung werden alle Knoten des Parse- 
Baumes mit fur jeden Knotentyp festgelegten SoC-Symbolen attributiert. Die dar- 
auf folgende Traversierung aller Knoten des Parse-Baumes fiihrt bei jedem Durch- 
schreiten eines Knotens zur Ausgabe eines SoC-Symbols. Diese SoC-Symbole werden 

235 sowohl der Adaptiervorrichtung (8) als auch dem arithmetischen Coder (10) iiber- 

geben. Zusatzlich ubergibt die Parse-Baum-Verarbeitung den aktuellen Knotentyp 
an die Adaptiervorrichtung (8). 

6. Symboltabellenspeicher 

Der Symboltabellenspeicher beinhaltet die vom Parser (4) extrahierten Bezeichner 
240 des Java-Programmt'extes. 
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7. Zip-Kompressionseinrichtung 

Der Inhalt der Symboltabelle (6) wird durch das Verfahren nach Lempel-Zip- Welch 
[2] komprimiert. 

8. Sendeseitige Adaptiervorrichtung 

245 Die Adaptiervorrichtung tragt bei der Initialisierung festgelegte Anfangswahrschein- 

lichkeitsverteilungen fiir jeden Knotentyp in der Wahrscheinlichkeitsverteilungsta- 
belle (9) ein. Bei der laufenden Verarbeitung der von der Parse-Baum-Verabeitung (5 
iibernommenen SoC-Symbole und anhand der aktuellen Knotentypen wird bei jedem 
Schritt die Wahrscheinlichkeitsverteilung aller SoC-Symbole des aktuellen Knoten- 
250 typs adaptiert und in der Wahrscheinlichkeitsverteilungstabelle (9) eingetragen. Die 

Adaptiervorrichtung stellt gleichzeitig dem arithmetischen Coder 10 die zum jeweils 
aktuellen SoC-Symbol gehorende Wahrscheinlichkeitsverteilung zur Verfiigung. 



9. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

Fiir jeden Knotentyp enthalt die Tabelle eine eigene Wahrscheinlichkeitsverteilung 
255 der SoC-Symbole des jeweiligen Knotentyps. 

10. Arithmetischer Coder 

Der arithmetische Coder [5] empfangt von der Parse-Baum-Verarbeitung (5) das 
nachste zu codierende SoC-Symbol und codiert es unter Beriicksichtigung der von 
der Adaptiervorrichtung (8) zur Verfiigung gestell.ten Wahrscheinlirlikeitsvt'rU'iliiiis- 
260 Der Output des arithmetischen Coders ist ein binarer Datenstroiri. 

11. Datenverkettung 

Der binare Datenstrom des arithmetischen Coders (10) und die durch (7) kompri- 
mierte Symboltabelle (6) werden zu einem Datenpaket zusammengefafit. 

12. HTTP-Server 

Auf dem HTTP-Server wird das in der Datenverkettung (11) erstellte Datenpaket 
abgelegt und zum Abruf auf einem Massenspeicher zur Verfiigung gestellt. 

13. Intranet/Internet 

14. HTTP-Client (Internet-Browser) 

Der Browser hat die Aufgabe das Datenpaket iiber das Intranet/ Internet 13 von 
270 einem HTTP-Server (12) zu laden und den Decodiervorgang durch den SoC-Decoder 

(15) anzustofien. 

15. SoC-Decoder ' 

Der SoC-Decoder besteht im wesentlichen aus dem arithmeti.schen Decoder (17) 
und dem Kellerautomaten (22). Als Ergebnis liefert er die Sequent der (Terminal-) 
275 Symbole die dem urspriinglichen Java-Quellcode entsprechen (vgl. 3 und 4). ( I ). 
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1 6. Datenextraktion 

Hier werden der binare Datenstrom des arithmetischen Coders (10) und die durch 
Zip (7) komprimierte Symboltabelle aus dem gemeinsarnen Datenpaket extra- 
hiert und ersterer an den arithmetischen Decoder (17), letzterer an die Zip- 
Dekompressionseinrichtung (18) weitergegeben. 

17. Arithmetischer Decoder 

Der arithmetische Decoder [5] decodiert adaptiv den binaren Datenstrom von der 
Datenextraktion (16) unter Beriicksichtigung der von der empfangsseitigen Adap- 
tiervorrichtung (20) zur Verfiigung gestellten Wahrscheinlichkeitsverteilungen zu 
den SoC-Symbolen und iibergibt pro Decodierschritt ein SoC-Symbol an den Kel- 
lerautomaten (22). 

18. Zip-Dekompressionseinrichtung 

Die mit mit dem Verfahren nach Lempel-Ziv (7) komprimierte Symboltabelle des 
Coders (6) aus der Datenextraktion (16) wird entpackt und an den Symboltabel- 
lenspeicher des Decoders (19) eingetragen. 

19. Symboltabellenspeicher des Decoders 

20. Adaptiervorrichtung (empfangsseitig) 

Die Initialisierung der empfangsseitigen Adaptiervorrichtung erfolgt analog zur sen- 
deseitigen Adaptiervorrichtung (8). Wahrend der laufenden Decodieruiig ct hah die 
Adaptiervorrichtung bei jedem Decodierschritt ein SoC-SymboL adaptiert die VVahr- 
scheinlichkeitsverteilung der SoC-Symbole des aktuellen Knotentyps und tragi die 
adaptierten Wahrscheinlichkeitsverteilungen in die Wahrscheinlichkeitsverteilungs- 
tabelle (21) ein. Gleichzeitig stellt die empfangsseitige Adaptiervorrichtung die fiir 
den nachsten Decodierschritt giiltige Wahrscheinlichkeitsverteilung dem arithmeti- 
schen Decoder zur Verfiigung. Die Auswahl dieser Verteilung bestimmt sich durch 
den vom Kellerautomaten (22) festgelegten und im nachsten Decodierschritt zu er- 
wartenden Knotentyp. 

21. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

Fiir jeden Knotentyp enthalt die Tabelle eine eigene Wahrscheinlichkeitsverteilung 
der SoC-Symbole dieses Knotentyps. 

22. Kellerautomat 

Die Initialisierung des Kellerautomaten, die Bearbeitung des Stapelspeichers, sowie 
die Ausgabe von Terminalsymbolen ist in Figur 4 als F!ufidia.gramm dargestelll. 
Zusatzlich iibergibt der Kellerautomat Daten an die Adapliervorricljtuiig("20): 

(a) den jeweils aktuellen Knotentyp zur Adaption der Wahrsclieinlichkeiisverit^i- 
lungen der SoC-Symbole dieses Knotentyps 
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(b) den nachsten Knotentyp, dessen Wahrscheinlichkeitsverteilung der SoC- 
Symbole die Adaptiervorrichtung (20) im nachsten Decodierschritt dem arith- 
metischen Decoder (17) zur Verfugung stellen mufi. 

315 23. Stapelspeicher 

Stapelspeicher (Stack) fiir den Kellerautomaten (22). 

24. Java-Sinke 

Wiedergewonnener Java-Programmtext ohne Kommentare, uberflussige Leerzei- 
chen, usw. . 



3^v 



320 25. Codeerzeuger 

Der Codeerzeuger enspricht einem Compiler-Backend und generiert Bytecode fiir 
die JVM (26) in Abhangigkeit der Sequenz der (Terminal-) Symbole, die der Kel- 
lerautomat (22) liefert. 



26. JVM 

325 Die virtuelle Maschine fiir Java-Programme (Java Virtual Machine). 
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Verfahren und Einrichtung zur komprimierten Ubertra- 
gung und/oder Speicherung von einer durch digitale Da- 
ten reprasentierten Nachricht 

Bezugszeichenliste 
5 Bezugszeichen zur Figur 4 

/3 k String von Terminal- und Nonterminalsymbolen 
a SoC-Symbol 

V Terminal- oder Nonterminalsymbol 
S Startsymbol (Nonterminalsymbol) 
10 1. Die Entwicklung eines giiltigen Satzes der Grammatik (eines Programms) beginnt 
mit dem Startsymbol 5. Das Startsymbol S wird auf den Stack gelegt. 

2. Das oberste Symbol V wird vom Stack gelesen. 

3. Priifen, ob V ein Nonterminalsymbol ist. 

4. Vom linearen Eingangs-SoC-Symbolstrom wird das nachste SoC-Symbol a gelesen. 
15 5. Falls V ein Nonterminalsymbol ist, wird die Ableitung mit V weiterentwickelt. 

Durch a wird eine Auswahl (V,/? fc ) = z~ x {<*) der Menge der Alternativen von 
y ^ (3i\i3 2 \ • • • \Pn fur V bestimmt. Entsprechend der konkret^n Auswahl winl V* 
durch den String /?* ersetzt. 

6. Der String (3 k von Symbolen (Terminal- und/oder Nonterminalsymbolen) wird auf 
20 den Stack gelegt. 

7. Falls V ein Terminalsymbol ist, wird es ausgegeben. 

8. Priifen, ob der Stack leer ist. 

9. Die Stack-Maschine terminiert, wenn der Stack leer ist. 

Bezugszeichen zu den Figuren 5 und 6 

25 1. Java-Quelle 

2. SoC-Encoder 

3. Scanner 

4. Parser 

5. Parse-Baum-Verarbeitung 
30 6. Symboltabellenspeicher 

7. Zip-Kompressionseinrichtung 

8. Sendeseitige Adaptiervorrichtung 

9. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 



# 




» 
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10. Arithmetischer Coder 

11. Datenverkettung 

12. HTTP-Server 

13. Intranet /Internet 

14. HTTP-Client (Internet-Browser) 

15. SoC-Decoder 

16. Datenextraktion 

17. Arithmetischer Decoder 

18. Zip-Dekompressionseinrichtung 

19. Symboltabellenspeicher des Decoders 

20. Adaptiervorrichtung (empfangsseitig) , 

21. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

22. Kellerautomat 

23. Stapelspeicher 

24. Java-Sinke 

25. Codeerzeuger 

26. JVM 
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Patentanspriiche 

1 Verfahren zur komprimierten Ubertragung und/oder Speicherung von einer du'rch 
digitale Daten reprasentierten Nachricht, deren Struktur durch erne Grammatik 
definiert wird, 
5 dadurch gekennzeichnet, dafi 

(a) vor der Speicherung und/oder Ubertragung die Nachricht in eine lineare Se- 
quenz von Symbolen, welche die sukzessive Anwendung grammatikahscher Re- 
geln zur Bildung der Nachricht definiert, iiberfiihrt wird, und 

(b) nach der Speicherung und/oder Ubertragung zur Decodierung fur jedes so 
10 syntax orientiert codierte (SoC) Symbol die dem jeweiligen SoC-Symbol ent- 

sprechende grammatikalische Regel ausgefiihrt wird und durch diese Regel be- 
stimmte Ausgangsdaten erzeugt werden. 

2. Verfahren nach Anspruch 1, 

dadurch gekennzeichnet, dafi zur Erzeugung der SoC-Symbole 
15 (a) durch Parsen der Nachricht ein den aufeinanderfolgenden Anwendungen der 

grammatikalischen Regeln entsprechender Parse-Baum erzeugt wird, 

(b) jeder Knoten dieses Parse-Baumes mit einem SoC-Symbol attributiert wird, 
welches unter alien an dieser Stelle durch die Grammatik erlaubten Regeln die 
tatsachlich zur Erzeugung der urspriinglichen Nachricht angewendete Regel 

20 eindeutig identifiziert, und 

(c) die SoC-Symbole gemafi einer festgelegten Reihenfolge der Traversierung al- 
ter Knoten des Parse-Baumes zu einer linearen Sequenz von SoC-Symbolen 
verkettet werden. 

3. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, dafi 
zur Decodierung 

(a) der oberste Eintrag eines Stapelspeichers gemafi der durch das eingegebene 
SoC-Symbol bestimmten Produktion der Grammatik substjtuiert wird, 

(b) noch nicht vollstandig bearbeitbare Teile der grammatikalischen Regel in einem 
30 Stapelspeicher ablegt werden, und 

(c) vollstandig substituierte Teile der Produktion als Teil der urspriinglichen Nach- 
richt ausgegeben werden. 

4. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, dafi 

35 zur Decodierung 
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(a) der oberste Eintrag eines Stapelspeichers gemafc der durch das eingegebene 
. SoC-Symbol bestimmten Produktion der Grammatik substituiert wird, 

(b) noch nicht vollstandig bearbeitbare Teile der grammatikalischen Regel in einem 
Stapelspeicher ablegt werden. 

(c) vollstandig substituierte Teile der Produktion unmittelbar zu einem Teil eines 
ausfiihrbaren Programms fur einen realen Prozessor oder eine virtuelle Maschi- 
ne verarbeitet werden. 

Verfahren nach Anspruch 3 oder 4 

dadurch gekennzeichnet, daS ein Kellerautomat 

(a) durch das Ablegen eines definierten Startsymbols (Nonterminalsymbol) auf den 
leeren Stapelspeicher initialisiert wird, 

(b) das oberste Symbol vom Stapelspeicher liest, 

(c) priift, ob das gelesene Symbol ein Terminal- oder Nonterminalsymbol ist, 

(d) falls es ein Terminalsymbol ist, das Symbol ausgibt und abhangig davon, ob 
weitere Symbole im Stapelspeicher vorhanden sind, mit 5b fortfahrt bzw. ter- 
miniert, falls der Stapelspeicher leer ist, oder 

(e) falls es ein Nonterminalsymbol ist, das nachste SoC-Symbol vom Eingabestrom 
liest, 

(f) abhangig vom gelesenen SoC-Symbol genau eine Alternative (Kette von 
Terminal- und/oder Nonterminalsymbolen) aus der fur das aktuell bearbeitete 
Nonterminalsymbol giiltigen Menge von alternativ anwendbaren Ersetzungsre- 
geln (Produktionen) auswahlt und 

(g) diese Kette von Terminal- und/oder Nonterminalsymbolen auf den Stapelspei- 
cher legt und mit 5b fortfahrt. 

Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, dafi 

(a) jeder Knoten des Parse-Baumes mit einem SoC-Symbol und der Wahrschein- 
lichkeitsverteilung aller in diesem Knoten moglichen SoC-Symbole attributiert 
wird, 

(b) die lineare Sequenz der SoC-Symbole in Einheit mit den zugeordneten Wahr- 
scheinlichkeitsverteilungen einer Entropie-Codierung unterworfen wird, 

(c) die Entropie-Decodierung mit den identischen Wahrscheinlichkeitsverteilungen 
der SoC-Symbole durchgefuhrt wird, wie sie bei der Entropie-Codierung ange- 
wendet wurden. 



Verfahren nach Anspruch 6, 
dadurch gekennzeichnet, dafi 
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(a) die Wahrscheinlichkeitsverteilung der in einem Knoten anwendbaren Re- 
geln, ausgehend von einer Anfangsverteilung, bei jedem Auftreten eines SoC- 
Symbols so adaptiert wird, dafi die Wahrscheinlichkeit fiir das aufgetretene 
SoC-Symbol erhoht und die Wahrscheinlichkeit aller anderen Symbole entspre- 
chend verringert wird, 

(b) die jeweils aktuelle Verteilung der Auftrittswahrscheinlichkeiten den SoC- 
Symbolen des entsprechenden Knotentyps zugeordnet wird, 

(c) die Wahrscheinlichkeitsverteilung aller SoC-Symbole im aktuellen Knoten zu- 
sammen mit dem zu codierenden SoC-Symbol das Modell fiir eine arithmetische 
Codierung bildet, 

(d) bei der Decodierung das Ende der Nachricht dadurch erkannl wird, dais der 
Stapelspeicher leer ist und 

(e) auf das bei der arithmetischen Codierung notwendige End-()f-Message (EOM) 
Symbol verzichtet wird. 

Einrichtung fiir das Verfahren nach Anspruch 1 

gekennzeichnet durch 

einen Codierer, bestehend aus 

(a) einem Scanner zur Umformung der Nachricht als Sequenz von lesbaren Zeichen 
in eine Folge von Terminalsymbolen, 

(b) einem Parser zum Auffinden der grammatikalischen Regeln, durch deren suk- 
zessive Anwendung die Folge von Terminalsymbolen urspriinglich erzeugt wur- 
de, 

(c) einem Mapper, der den vom Parser identifizierten Regeln eindeutig Syntax- 
orientierte Symbole zuordnet und diese in festgelegter Reihenfolge ausgibt, 

und einen Decodierer, bestehend aus 

(a) einem Kellerautomaten, der, entsprechend dern obersten Symbol des Stapel- 
speichers und ggf. dem anliegenden SoC-Symbol, das bereit.s fest.stehendr T<t- 
minalsymbol ausgibt, oder die dem aktuellen Symbol zugeordneie Sequent von 
Terminal- und/oder Nonterminalsymbolen auf dem Stapelspeicher ablegl und 

(b) einem Lexikon, das die Terminalsymbole wieder durch Ketten aus lesbaren 
Zeichen ersetzt. 

Einrichtung fiir das Verfahren nach Anspruch 3 

gekennzeichnet durch 

einen Codierer, bestehend aus 

(a) einem Scanner zur Umformung eines, im Quelltext oder einer vom Quelltext 
durch einen Praprozessor abgeleiteten Form vorliegenden, Programms in eine 
Folge von Terminalsymbolen, 
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(b) einem Parser zum Auffinden der grammatikalischen Regeln, durch deren suk- 
110 zessive Anwendung die Folge von Terminalsymbolen ursprunglich erzeugt wur- 

de, 

(c) einem Mapper, der den vom Parser identifizierten Regeln eindeutig Syntax- 
orientierte Symbole zuordnet und diese in festgelegter Reihenfolge ausgibt, 

und einen Decodierer, bestehend aus 

115 (a) einem Kellerautomaten, der, entsprechend dem obersten Symbol des Stapel- 

speichers und ggf. dem anliegenden SoC-Symbol, das bereits feststehende Ter- 
minalsymbol ausgibt, oder die dem aktuellen Symbol zugeordnete Sequenz von 
Terminal- und/oder Nonterminalsymbolen auf dem Stapeispeicher ablegl und 

(b) einem Codegenerator, der aus der Folge von Terminalsymbolen ausfuhrbaren 
Maschinencode, oder Zwischencode zur Ausfiihrung auf einer virtuellen Ma- 
schine erzeugt. 

10. Einrichtung fur das Verfahren nach Anspruch 7 
bestehend aus 

(a) senderseitig 

125 i. einer Tabelle, die die Wahrscheinlichkeitsverteilungen der SoC-Symbole fiir 

jeden Knotentyp beinhaltet und deren Inhalt bei der Initialisierung mit 
festgelegten Anfangswahrscheinlichkeitsverteilungen fiir jeden Knotentyp 
belegt wird, 

ii. einer Adaptionsvorrichtung, die die Wahrscheinlichkeitsverteilung der SoC- 
130 Symbole des momentan giiltigen Knotentyps anhand der bestehenden 

Wahrscheinlichkeitsverteilung, des zu codierenden SoC-Symbols und des 
aktuellen Knotentyps aktualisiert und diese neue Wahrscheinlichkeitsver- 
teilung in die Tabelle eintragt, 

iii. und einer arithmetischen Codiervorrichtung, die das jeweils zu codierfiide 
SoC-Symbol mit der von der Adaptionsvorrichtung zur Verfiigung gesieil- 
ten aktuell giiltigen Wahrscheinlichkeitsverteilung codiert; 

(b) und ernpfangerseitig 

i. einer Tabelle, die die Wahrscheinlichkeitsverteilungen der SoC-Symbole fiir 
jeden Knotentyp beinhaltet und deren Inhalt bei der Initialisierung mit 

140 festgelegten Anfangswahrscheinlichkeitsverteilungen fiir jeden Knotentyp 

belegt wird, 

ii. einer Adaptionsvorrichtung, die die Wahrscheinlichkeitsverteilung der SoC- 
Symbole des vom Kellerautomaten festgelegten, momentan giiltigen Kno- 
tentyps anhand der bestehenden Wahrscheinlichkeitsverteilung, des deco- 

145 dierten SoC-Symbols und des aktuellen Knotentyps aktualisiert und diese 

neue Wahrscheinlichkeitsverteilung in die Tabelle eintragt, 
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einer arithmetischen Decodiervorrichtung, die anhand der von der Adapli- 
onsvorrichtung zur Verfugung gestellten, aktuell gultigen WahrsclK-inlu h- 
keitsverteilung des aktuellen Knotentyps das nachste SoC-Syrnbol deco- 
diert und zur weiteren Verarbeitung dem Kellerautomaten iibergibt. 
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Figur 2 
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Figur 3 
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Figur 4 




Figur 5 
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